3.4 softmax 回归

要点

softmax 函数是为了人为构造概率分布设计出来的
交叉熵损失计算分布之间差异，其实和 KL 散度等价

1. 分类问题的独热编码

分类问题本身就是不连续的，直接用离散变量会导致损失函数不可导。统计学家很早以前就发明了一种表示分类数据的简单方法：独热编码（one-hot encoding）。独热编码是一个向量，它的分量和类别一样多。类别对应的分量设置为1，其他所有分量设置为0。在我们的例子中，标签 $y$ 将是一个三维向量，其中 $(1, 0, 0)$ 对应于“猫”、 $(0, 1, 0)$ 对应于“鸡”、 $(0, 0, 1)$ 对应于“狗”：

y \in {(1, 0, 0), (0, 1, 0), (0, 0, 1)}

2. 网络架构

我们可以用神经网络图来描述这个计算过程。与线性回归一样，softmax 回归也是一个单层神经网络。由于计算每个输出 $o_{1}$ 、 $o_{2}$ 和 $o_{3}$ 取决于所有输入 $x_{1}$ 、 $x_{2}$ 、 $x_{3}$ 和 $x_{4}$ ，所以 softmax 回归的输出层也是全连接层。